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为 了 满足 对 视频 服务 质量 不 断 提高 的 需求 , 研究 人 员 一 直 在 研究 发 展 先进 的 视频 压缩 编 
码 技术 ， 以 持续 提高 视频 压缩 编码 的 率 失 真性 能 Crate-distortion performance )。 在 此 背景 下 ， 
各 种 视频 编码 标准 不 断 地 出 现 ， 从 早期 的 MPEG-154、H.261 叫 到 后 来 的 MPEG-2/4P!, 
H.263/45 3， 以 及 新 兴 的 HEVC/H.265 四 。 随 着 视频 编码 标准 的 发 展 ， 编 码 算法 的 复杂 度 持 
续 提 升 ， 从 而 导致 其 对 计算 能 力 的 需求 不 断 提 高 。 目 前 传统 的 单 核 处 理 器 已 经 很 难 满 足 当前 
先进 的 视频 编码 技术 对 计算 能 力 的 要 求 修 。 在 这 种 情况 下 ， 面 向 多 核 (Multi-core)/ 众 核 
(Many-core) 处 理 器 的 并 行 视频 编码 ， 作 为 满足 视频 编码 对 计算 能 力 需求 的 重要 技术 手段 ， 


新 兴 的 视频 编码 标准 HEVC 也 开始 引入 面向 多 核 处 理 器 的 并 行 方 案 ， 在 标准 中 增加 了 儿 种 
适用 于 并 行 编码 的 规格 ”。 


多 核 处 理 器 与 众 核 处 理 器 的 主要 区 别 在 于 处 理 单元 数目 〈 核 数 )， 目 前 一 般 认 为 单个 芯 
片 处 理 单元 数目 在 16 个 以 下 的 为 多 核 处 理 器 ， 超 过 16 个 为 众 核 处 理 器 。 多 核 / 众 核 结构 的 
并 行 处 理 器 正在 高 速 发 展 。 单 个 芯片 上 可 容纳 的 处 理 单元 数目 约 每 隔 18 个 月 便 会 增加 一 售 。 
预计 到 2018 年 ,单个 芯片 上 的 处 理 单元 数目 将 达到 1000 个 以 上 。 我们 已 经 步 入 或 者 即将 进 
入 众 核 处 理 器 时 代 B 9。 


众 核 处 理 器 时 代 的 到 来 , 为 视频 编码 技术 提供 了 强大 的 计算 能 力 保障 , 但 是 也 给 视频 编 
码 领 域 研究 带 来 了 极 大 的 挑战 “"。 为 了 发 挥 众 核 处 理 器 的 并 行 计算 能 力 ， 必 须 有 与 之 相 适 
配 的 高 并 行 度 视频 编码 技术 与 方法 。 而 已 有 的 并 行 视频 编码 方法 主要 面向 多 核 处 理 器 ,其 中 
大 部 分 方法 并 行 度 不 高 , 无 法 充分 挖掘 众 核 处 理 器 的 计算 能 力 。 研 究 适 用 于 众 核 处 理 器 的 高 
并 行 度 视频 编码 方法 ， 为 视频 编码 发 展 提供 持续 的 计算 能 力 保证 ， 具 有 重要 意义 。 目 前 面向 
众 核 处 理 需 的 高 并 行 度 视 频 编 码 研 究 刚 起 步 ， 相 关 研 究 成 果 还 比较 少 。 


2 国内 外 研究 概况 


图 1 是 视频 编码 器 
的 一 般 框 架 。 其 中 预测 | Fn 当前 帧 
F', 1 当前 帧 上 y 预 测 编码 
究 比 较 多 Dr31。 环 路 滤 


编码 特别 是 运动 估计 ， 
Fn 重 构 帧 \ 路 滤波 又 量化 反 变 换 
LS [rain e pans C emunt 


是 单 核 处 理 器 上 占用 时 
间 比 例 最 大 的 部 分 ， 特 

密集 和 与 数据 强 相关 ， 图 1， 视 频 编码 器 的 一 般 框 架 
不 容易 实现 并 行 。 同 时 ， 


别 需 要 并 行 处 理 ， 因 此 
由 于 其 他 模块 并 行 化 的 发 展 , 环 路 滤波 和 和 粒 编码 所 占 的 时 间 比 例 也 越 来 越 大 , 开始 成 为 性 能 


关于 并 行 运 动 估计 的 研 
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的 瓶颈 中 。 面 对 众 核 时 代 的 到 来 , 我们 急需 针对 烂 编码 和 环 路 滤波 的 并 行 方案 。 目 前 新 兴 
的 视频 编码 标准 HEVC 也 开始 考虑 采纳 针对 这 三 个 模块 的 并 行 方案 中 ,我 们 重点 针对 这 三 个 
模块 ， 开展 了 面向 众 核 处 理 器 的 并 行 化 方法 ， 包括: 面向 众 核 处 理 需 的 并 行 环 路 滤波 、 面 癌 
众 核 处 理 器 的 并 行 精 编 码 、 面 向 众 核 处 理 器 的 并 行 运 动 估 计 这 三 个 方面 的 研究 。 这 三 个 模块 
以 外 的 变换 量化 和 反 量 化 反 变 换 模块 , 因为 容易 实现 高 度 并 行 化 , 同时 在 整个 编码 过 程 中 所 
占 的 时 间 比 例 比 较 少 ， 不 是 我 们 的 研究 重点 。 


2.1 并 行 环 路 滤波 研究 现状 

并 行 环 路 滤波 研究 起 步 很 晚 ， 文 献 [15] 最 先 于 2009 年 提出 了 面向 多 核 的 并 行 滤 波 方 案 。 
所 有 研究 者 都 集中 于 数据 级 的 并 行 ， 主 要 包括 宏 块 级 并 行 “ ”和 像素 级 并 行 。 以 下 我 们 
进行 简单 的 介绍 : 


2.1.1 宏 块 级 并 行 


图 2， 相 邻 宏 块 的 相关 性 图 3，2D-wavefront 宏 块 级 并 行 方 法 

如 图 2 所 示 , 在 环 路 滤波 过 程 中 , 当前 的 宏 块 和 临近 的 左 、 上 和 右上 三 个 临近 宏 块 相关 。 
在 对 当前 宏 块 滤波 前 ， 需要 对 这 三 个 相关 宏 块 滤波 。 如 图 3 所 示 ， 目 前 存在 的 2D-wavefront 
(二 维 波 前 〉 宏 块 级 并 行 方案 “直接 将 不 相关 的 宏 块 分 配给 不 同 的 处 理 单元 进行 滤波 。 
每 个 矩形 代表 帧 图 像 中 的 宏 块 ， 数 字 代 表 时 间 惟 ， 具 有 相同 数字 的 宏 块 可 以 并 行 处 理 。 

我 们 发 现 , 刚 开始 滤波 的 时 候 ， 每 过 两 个 时 间 戳 ， 并 行 度 加 一 。 如 果 处 理 单元 数目 足够 
多 ， 帧 图 像 水 平方 向 和 垂直 方向 的 宏 块 数 目 分 别 为 Wm 和 Hm ， 则 最 大 并 行 度 为 
min(ceil (W,, / 2), H,,) 。 这 样 的 并 行 度 还 远 不 能 充分 利用 众 核 处 理 器 所 有 的 处 理 单元 ; 同时 ， 
每 个 宏 块 处 理 之 前 ， 需 要 和 三 个 宏 块 进行 同步 通信 。 如 果 相 关 宏 块 没 有 处 理 完 毕 ， 该 宏 块 需 
要 继续 等 待 。 整 个 帧 图 像 的 同步 通信 次 数 近 似 于 3X Wm X Hm。 频繁 的 宏 块 间 同 步 通 信 产 生 
了 大 量 的 等 待 时 间 ， 严 重 影响 整体 性 能 ， 同 步 负载 很 重 ;， 而且， 因为 滤波 强度 不 尽 相 同 ， 各 
个 宏 块 的 滤波 时 间 可 能 不 一 样 。 滤波 时 间 短 的 处 理 单 元 需要 等 待 滤波 时 间 长 的 处 理 单 元 ， 负 
载 不 均衡 问题 严重 。 
2.1.2 像素 级 并 行 

如 图 4 所 示 ， 文 献 [15] 首 先 分 析 滤 波 像 素 和 相关 像素 之 间 的 关系 。 宏 块 滤波 边界 W 可 
能 会 影响 像素 b~g 的 数值 ， 在 对 像素 j 进行 滤波 的 时 候 ， 需 要 的 相关 像素 为 h~k。j 的 相关 
像素 和 W 的 滤波 像素 不 重合 ，j 右边 的 像素 也 是 如 此 。 这 样 在 对 边界 W 滤波 的 同时 ， 可 以 
对 像素 j 以 及 j 右边 像素 进行 滤波 。 图 5 描述 了 文献 [15] 的 像素 级 并 行 方案 ， 将 帧 图 像 分 成 
很 多 像素 块 ， 分 别 对 其 并 行 处 理 。 此 方法 的 优点 很 明显 : 一 个 帧 图 像 可 以 分 成 很 多 无 相关 性 
的 像素 块 ， 并行 度 大 ， 同 时 各 个 像素 块 之 间 没 有 通信 ,同步 负载 小 。 最 大 的 问题 是 ,文献 [15] 
对 滤波 像素 和 相关 像素 的 相关 性 分 析 忽 略 了 编码 标准 中 的 一 些 限 制 因 素 , 这 会 严重 影响 编码 
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效率 。 男 外 ， 每 个 像素 块 的 处 理 时 间 不 一 样 ， 存 在 严重 的 负载 不 均衡 问题 。 
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图 4， 滤 波 像素 和 相关 像素 的 关系 图 5， 像 素 级 并 行 方案 
2.2 并 行业 编 码 研究 现状 


烂 编码 主要 包括 变 长 炉 编 码 和 算术 炉 编 码 两 种 。 并 行 人 编 码 研 究 起 步 也 很 晚 , 集中 于 算 
术 炉 编码 的 并 行 算法 研究 。 文 献 [19] 最 先 提 出 了 面 问 多 核 的 并 行 烂 编码 方案 。 到 目前 为 止 ， 
并 行 炳 编码 方案 主要 有 两 种 : 一 种 是 语法 元 素 分 割 0”" ,形成 相互 之 间 相 关 性 比较 小 的 语法 
元 素 集 合 ， 这 些 集合 可 以 并 行 执 行 ， 另 一 种 是 烂 编码 片 (entropy slice) 2l, E5298 3T 
Bt, KA (slice)^) SL ARH b vr fr ig d 3 Hr, iuf T Nds RI] 3f-47 REU90 
2.2.1 语法 元 素 分 制 


X 1 和 表 2 及 图 6 分 别 是 文献 [19 和 文献 [25] 的 “ 表 1. 文献 [19] 的 语法 元 素 分 割 方案 


语法 元 素 分 割 方法 。 以 图 6 AB, ER mN E, 组 别 语法 元 素 特 后 

首先 将 语法 元 素 分 割 成 五 个 集合 ， 对 这 五 个 集合 分 HI 语法 元 素 是 关于 帧 头 的 信 
别 进行 烂 编码 ， 在 烂 解码 阶段 ， 再 对 这 五 个 集合 分 县 , 包括 宏 块 类 型 、 预 测 信 
别 进行 箭 解码 。 这 样 就 大 大 提高 了 箭 编 解 码 的 性 能 。 ARE T. HH 
这 五 个 集合 之 间 相 关 性 很 弱 ， 但 还 是 存在 一 定 的 相 。 组 ”语法 元 素 是 关于 残余 数据 
关 性 。 如 果 对 这 五 个 集合 直接 并 行 处 理 ， 势 必 会 严 和 和 请 尾 的 映射 信息 

重 影响 编码 效率 。 同 时 ， 各 个 语法 元 素 集合 的 处 理 ”组 II ， 语法 元 素 是 关于 残余 数据 、 
时 间 不 一 样 ， 存 在 负载 不 均衡 问题 。 为 外 ， 表 1 和 片尾 的 级 别 信息 

表 2 及 图 6 的 语法 元 素 集 合 的 个 数 分 别 是 3 和 5， 对 应 的 最 大 并 行 度 只 有 3 和 5， 并 行 度 太 
小 。 


表 2. 文献 [25] 的 语法 元 素 分 割 方案 


组 别 语法 元 素 
组 I mb skip flag. mb type. sub mb type. mb field decoded flag. end of slice flag 
组 II prev intra4x4 pred mode flag. rem intra4x4 pred mode, 


prev intra8x8 pred mode flag. rem intra8x8 pred mode, 
intra chroma pred mode. ref idx 10. ref idx 11. mvd 10. mvd 11 


组 III transform size 8x8 flag. mb qp delta. coded block pattern, coded block flag 
2H IV significant coeff flag. last significant coeff flag 
2H V Coeff abs level minusl、 coeff sign flag 


[97] 
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语法 元 素 划 分 


H.264/AVC Slice | E 
MBINFO E 
B 片头 不 同 语法 
PRED E 元 素 分 组 
CBP 
h 


周期 数 
图 6， 在 该 分 割 方案 下 的 并 发 情况 


2.2.2 Jig 3 Fr 2] il 
在 文献 [21] 的 片 (slice) 级 并 行 方案 中 ， 随 着 人 处理 


单元 数目 的 增多 ， 为 了 满足 高 并 行 度 ， 片 的 数目 也 
随即 增多 ， 这 样 会 严重 影响 编码 的 效率 。 目 前 新 兴 
的 视频 编码 标准 HEVC FELA IE CUN Ai J 
(entropy slice) 分 割 |“ , ERNE, 将 每 个 片 进行 
分 割 ， 形 成 多 个 相互 独立 的 烂 编码 片 。 如 图 7 是 将 "T 
—4 HAY T —adBden-. denam AD A RARER 
ARRENE ZPO DUCES T . MARENE, HrUCHRCGHUNS. KAE 
响 其 他 阶段 的 编码 效率 。 Joc PE ri DUC HIE GT Ai 0, ec T s Y BE 
并 行 度 ,提高 了 速度 。 不 过 由 于 炳 编码 片 之 间 的 信息 不 能 相互 参考 ,这 个 方法 也 会 一 定 程度 
影响 彤 编码 的 编码 效率 。 同 时 由 于 粮 编 码 片 的 处 理 时 间 不 同 ， 负 载 不 均衡 问题 严重 。 


2.3 并 行 运 动 估计 研究 现状 
运动 估计 (motion estimation, ME) 计 算 量 巨大 , 在 整个 编码 过 程 中 占用 了 最 大 的 比例 。 在 


H.264 的 参考 代码 中 ,运动 估计 要 占用 大 于 80% 的 计算 时 间 。 因 此 研究 如 何在 保证 编码 效率 
的 前 提 下 在 运动 估计 模块 内 部 最 大 限度 地 去 看 合 , 以 实现 运动 估计 高 度 并 行 化 , 十 分 有 意义 。 


2.3.1 面向 传统 编码 标准 的 全 局 并 行 


面 癌 传统 视频 编码 标准 (如 H.264) 的 并 行 运动 估计 研究 较 对 于 其 他 模块 的 并 行 研究 更 
多 。 这 些 研究 大 多 是 基于 GPU 平台 的 全 局 并 行 。 文 献 [22] 将 一 帧 图 像 划 分 成 4X4 的 独立 图 
像 块 ， 对 每 个 块 在 搜索 范围 内 的 每 一 个 候选 位 置 (candidate position). 使 用 一 个 线程 独立 地 
计算 匹配 代价 SAD (Sum of Absolute Differences)。 然 后 将 每 一 个 宏 块 内 的 所 有 4X4 块 进行 
组 合 , 进而 可 以 得 到 其 他 形状 块 在 搜索 范围 内 的 所 有 匹配 代价 。 对 每 个 块 选 择 最 小 的 匹配 代 
价 ， 对 应 的 位 置 侦 移 即 为 运动 矢量 。 文 献 [23] 的 思想 与 文献 [22] 大 致 相同 ， 不 同 的 是 该 论文 
考虑 到 了 运动 矢量 估计 (motion vector prediction, MVP) 对 编码 性 能 的 影响， 使 用 运动 矢 
量 估计 对 搜索 范围 初始 化 ,一 定 程 度 上 减 小 了 质量 的 下 降 。 这 类 方法 实现 起 来 简单 ， 并 行 度 
高 ， 但 是 没有 充分 考虑 到 相 邻 宏 块 之 间 的 编码 相关 性 ， 会 对 编码 质量 造成 较 大 的 影响 。 


2.3.2 面向 HEVC 的 局 部 并 行 


在 HEVC 编码 标准 中 ， 每 一 个 编码 单元 (coding unit, CU) 会 被 划分 成 若干 个 预测 单元 
(prediction unit, PU), 预测 单元 是 携带 运动 信息 (参考 帧 , 运动 矢量 ) 的 最 小 单元 。 与 H.264/AVC 
相 比 ，HEVC 对 预测 单元 的 划分 更 加 灵活 《和 拖 形 、 方 形 、 对 称 、 非 对 称 ) 以 更 好 地 适应 不 
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同形 状 的 运动 区 域 。 万 外 ，HEVC 允许 预 
测 单元 采用 merge/skip〈 合 并 / 滤 过 ) 模式 ， 
预测 单元 不 必 显 式 地 传送 运动 矢量 和 参考 
帧 信息 ， 编 码 端 选取 与 当前 预测 单元 相 邻 
的 其 他 已 编码 预测 单元 形成 一 个 候选 列表 
(merge candidate list, MCL)， 然 后 从 该 列表 
中 通过 计算 匹配 代价 选择 一 个 与 当前 预测 
单元 运动 信息 最 接近 的 预测 单元 ， 将 它 的 图 8， 候 选 列 表 构 造 对 相 邻 预测 单元 的 依赖 关系 
运动 参数 作为 当前 预测 单元 的 运动 参数 。 (9) 空 域 相 邻 预测 单元 , (b) 时 域 相 邻 预测 单元 
在 人 码 流 中 只 需要 传送 最 匹配 预测 单元 在 候 
选 列 表 中 的 索引 即 可 。 解 码 端 用 同样 的 方法 构造 出 候选 列表 , 根据 解码 得 到 的 索引 即 可 获取 
当前 预测 单元 的 运动 参数 。 候 选 列表 的 构造 依赖 于 5 个 空域 相 邻 预测 单元 CAO, AT, BO, BI, 
B2) 和 2 个 时 域 相 邻 预测 单元 (C,H)， 如 图 8 所 示 。HEVC 中 运动 矢量 估计 的 计算 也 与 周 
围 预测 单元 有 类 似 的 依赖 关系 。 


HEVC 中 merge/skip 的 引入 和 运动 矢量 
估计 的 计算 使 预测 单元 之 间 的 编码 依赖 性 更 
强 , 不 能 再 使 用 传统 并 行 运动 估计 方法 一 一 
否则 会 对 编码 质量 造成 很 大 的 影响 。 为 了 
能 在 保证 编码 质量 的 前 提 下 并 行 处 理 ， 提 
案 [24] 中 提出 了 运动 估计 区 域 (motion estima- 
tion region, MER) 的 概念 。 每 一 个 运动 估计 区 
域 是 最 大 编码 单元 (largest coding unit, LCU) 
的 等 分 。 所 有 运动 估计 区 域 均 是 正方 形 且 尺 


寸 相 同 ,[24] 认 为 同一 个 运动 估计 区 域 里 面 的 O 不 依赖 (尚未 编码 ) 
域 范围 内 所 有 的 预测 单元 可 以 并 行 地 进行 运 依赖 

动 估 计 ,， 如 图 9 所 示 。 [24] 虽 然 在 一 个 运动 估 

计 区 域内 部 对 所 有 预测 单元 并 行 运 动 估计 ， 图 9， 运 动 佑 计 区 域 对 周转 
但 是 运动 估计 区 域 之 间 仍 然 是 按照 扫描 顺序 了 预测 单元 的 依赖 关系 的 影 啊 


进行 处 理 ， 所 以 整体 并 行 度 不 高 。 
3 X264 视频 编码 器 在 多 核 平 台 上 的 并 行 化 
x.264 是 应 用 最 为 广泛 的 开源 H.264 编码 器 ， 我 们 对 其 在 多 核 平台 上 进行 了 并 行 化 性 能 
的 实验 研究 ， 通 过 实验 数据 分 析 算 法 的 并 行 化 能 
3.1 实验 配置 
实验 中 采用 了 如 下 三 种 硬件 平台 : 


- HWoO0: 曙光 i950 服务 器 ， 含 8 个 Intel Xeon X7550@ 2GHz CPU。 每 个 CPU 为 8 
核 ， 共 享 18MB 三 级 缓存 CL3 cache). 

”HW1: 华硕 P6T7 主板 搭载 一 颗 Intel Core i7 950 @3.07GHz CPU。 该 CPU 含有 4 f, 
共享 8MB 三 级 缓存 ， 支 持 Hyperthreading 技术 ， 可 同时 运行 8 个 线程 。 

- HW2: 华硕 UX30 笔记 本 ， 搭 载 超 低 电 压 版 Intel SU7300 1.3GHz CPU， 该 CPU 含 
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A 2, HE 3MB 的 二 级 缓存 。 


实验 采用 了 来 自 并 行 基 准 程序 集 PARSEC 2.1 的 x264 作为 研究 对 象 ， 其 输入 为 
1920x1080 分 辨 率 、25fps、 共 512 ill) YUV 视频 ， 时 长 20.5 秒 。 实 验 中 区 分 了 如 下 两 种 实 


现 选项 ; 


SW0: 汇编 优化 
SWI: 无 汇编 优化 


实验 中 采用 的 分 析 工 具有 : 


GP: gprof 
OP: oprofile 
TP: Agner Fog 的 testp 工具 


3.2 实验 一 : 线程 数 与 性 能 的 关系 


基于 硬件 平台 HWO 和 软件 选项 
SW0， 通 过 改变 线程 数 ， 观 察 实际 运 
行 时 间 与 总 耗 时 ”。 三 个 测 得 数据 依次 
为 实际 运行 时 间 、 总 耗 时 、 加 速 比 。 
加 速 比 由 总 耗 时 除 以 实际 运行 时 间 


得 到 。 


实验 结果 如 图 10 所 示 。 从 中 可 
以 看 出 : 


时 间 ( 秒 ) 


EG EX ERAS, erm Rl 
按 比 例 减少 ， 线 程 数 为 2 和 
4 时 加 速 比 约 2 和 4。 线程 数 
为 8 时 ， 加 速 比 为 7， 加 速 


比 降低 的 原因 是 : 加 上 非 计 图 10. 并 行 性 能 与 线程 数 的 关系 


算 线程 ， 总 线程 数 超过 S. 

而 代码 中 没有 进行 线程 与 处 理 器 的 绑 定 , 部 分 线程 被 分 配 到 不 同 的 CPU 执行 (CPU 8 
核 )， 不 共享 三 级 缓存 的 线程 间 通 信 代 价 增高 。 

16 线程 加 速 比 为 12.6，32 线程 加 速 比 为 15.7，64 线程 为 16.1。 更 多 的 处 理 器 加 入 
运算 ， 由 于 不 共享 三 级 缓存 ， 基 于 总 线 的 交互 增多 ， 通 信 计 算 比 上 升 ， 效 率 下 降 。 
预计 使 用 更 多 的 处 理 器 ， 加 速 比 存 在 极 大 值 。 原 因 有 两 个 方面 ， 一 个 是 按照 阿 姆 达 
^K CAmdahD 定律 ， 串 行 部 分 所 占 比率 决定 了 最 大 加 速 比 ; 二 是 能 同时 编码 的 帧 的 
数目 有 上 限 ， 限 制 了 帧 间 的 并 行 度 。 


3.3 实验 二 : 汇编 SIMD 指令 优化 的 加 速效 果 

现代 处 理 器 中 的 SIMD 向 量 部 件 对 图 像 处 理应 用 有 较 强 的 加 速效 果 。 本 实验 基于 HWI 
平台 ， 观 察 在 采用 和 不 采用 汇编 SIMD 指令 时 的 性 能 状况 。 实 验 中 统计 的 线程 数 分 别 为 1、 
2、4， 有 具体 实验 结果 《实际 运行 时 间 与 总 耗 时 ) 如 图 11 所 示 。 其 中 ， 前 两 项 为 有 汇编 优化 


的 情况 下 的 运行 时 间 ， 后 两 项 为 无 汇编 优化 的 情况 下 的 运行 时 间 。 从 试验 结果 可 以 看 到 : 


”一 种 颜色 编码 方法 


”实际 运行 时 间 指 在 现实 中 程序 运行 经 过 的 时 间 ; 总 耗 时 指 所 有 核 的 运行 时 间 之 和 。 
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随 线 程 数 增加 ， 总 耗 时 有 增长 ， 因 为 并 行 化 需要 额外 开销 。 这 个 现象 在 HW1 平台 


下 比 HWO 平台 下 更 明显 ， 因 为 
x7550 xeon 与 i7 950 相 比 , 三 级 绥 存 
更 大 , 运行 频率 较 低 , 使 得 通信 与 计 
算 能 力 比值 更 大 。 

即使 线程 数 不 同 或 者 硬件 平台 不 同 ， 
SIMD 指令 的 数据 并 行 带 来 的 加 速 
比 基 本 相同 。 

数据 并 行 效果 优 于 线程 级 并 行 。 经 汇 
编 优化 的 单线 程 程序 的 实际 运行 时 
间 少 于 未 经 汇编 优化 的 四 线程 程序 。 
不 过 两 种 加 速 方法 可 以 同时 使 用 , 并 
不 互 斥 。 

数据 并 行使 用 人 硬件 加 速 逻 辑 , 虽然 应 
用 范围 有 限 , 但 对 适合 的 应 用 效果 很 
好 。 


1000 


3.4 实验 三 : 程序 热点 与 调用 图 分 析 
我 们 基于 人 硬件 平 台 HW1 和 HW2， 采 用 GP 和 OP 两 种 分 析 工 具 ， 针 对 有 无 汇编 优化 这 


1200 


( 秒 ) 


800 


600 


400 


200 


线程 数 
加 实际 运行 时 间 ”中 总 耗 时 
图 实际 运行 时 间 ( 无 汇编 优化 ) 
总 耗 时 (无 汇编 优化 ) 


图 11. 是 否 采用 SMD 优化 的 效果 


两 种 不 同情 况 ， 用 gprof 分 析 函 数 调 用 关系 ， 用 oprofile 1 9rERZIG 4T E TR] ES FE dA. K 
验 结果 如 表 3 到 表 6 所 示 。 
K3. 无 汇编 优化 时 的 gprof 分 析 结 
时 间 《〈%) ”累计 秒 数 ” 自 映 占用 秒 数 调用 次 数 图 数 名 
51.55 315.89 315.89 352855786 x264 pixel sad x4 16x16 
8.22 366.25 50.36 95480404 x264 pixel satd 16x16 
6.95 408.86 42.61 162003947 . x264 pixel sad 16x16 
5.17 440.56 31.70 221451763 . get ref 
2.70 457.07 16.52 79657183 mc chroma 
2.51 472.43 15.36 23183864 x264 pixel sad_x3_16x16 


K4 无 汇编 优化 时 的 oprofile 分 析 结 


CPU: Intel Core/i7, 估计 运行 时 频率 1600 MHz 


CLK UNHALTED LLC MISSES LLC REFS 

pu 百分比 He 百分比 TEA 百分比 二 进 制 文件 函数 符号 名 

点 数 点 数 点 数 

753864 46.74 175 40.51 1310 20.08 x264 x264 pixel sad x4 16x16 
133229 826 0 0.000 82 1.26 x264 x264 pixel satd 16x16 
124814 7.74 31 748 850 13.03 libc2.1l.3.so —/lib/libc-2.11.3.so 
104249 — 646 71 1644 862 1321 x264 x264 pixel sad 16x16 
78652 4.88 49 1134 691 10.59 x264 get ref 

43875 2.72 .33 764 441 6.76 x264 mc chroma 

34554 — 2.14 0 0.00 21 0.32 x264 x264 pixel sad x3 16x16 


K5. 有 汇编 优化 时 的 gprof 分 析 结 


时 间 (%) 累计 秒 数 自 映 占用 秒 数 调用 次 数 
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23:95 
7.54 
6.40 
5.87 
S23 
4.58 


25.48 
33.50 
40.31 
46.55 
52.14 
57.01 


25.48 
8.02 
6.81 20359200 
6.24 
5.59 63340684 
4.87 


K6 有 汇编 优化 时 的 oprofile 结果 


CPU: Intel Core/i7, 估计 运行 时 频率 1600 MHz 
CLK UNHALTED 


LLC MISSES LLC REFS 


x264 pixel sad x4 16x16 sse2 
x264 pixel satd 8x8 internal ssse3 phadd 


x264 me search ref 


x264 pixel avg2 wl6 sse2 


block residual write cabac 
x264 pixel sad 16x16 sse2 


样本 样本 样本 

a HOE cge HAE. sg AIE 
点 数 点 数 点 数 
77713 20.89 167 33.81 823 21.8 
36983 9.94 19 3.85 286 7.36 
252755 | 69 | 17 344 109 2.80 
22205 | 5.99 7 142 168 432 
20206 5.43 74 1498 594 1529 
18376 | 494 27 547 423 10.89 

通过 试验 结果 可 以 看 到 : 


二 进 制 文 件 
x264 
libc-2.11.3.so 


x264 


x264 
x264 
x264 


函数 符号 名 


x264 pixel sad x4 16x16 
SSe2 

/lib/libc-2.11.3.so 

x264 pixel satd 8x8 - 
internal ssse3 phadd 

x264 me search ref 

x264 pixel avg2 wl16 sse2 
x264 pixel sad 16x16 sse2 


SIMD 汇编 优化 的 代码 三 级 缓存 访问 次 数 减少 ， 所 以 SIMD 指令 提高 了 数据 的 利用 
效率 ， 而 未 优化 的 代码 因为 要 存储 中 间 变 量 以 及 访 存 模式 不 规律 导致 数据 利用 率 较 


低 。 


SIMD 人 硬件 加 速 的 核 函 数 运 行 时 间 缩 短 到 原来 的 1/10 左右 ， 热 点 函数 的 时 间 占 用 比 
例 下 降 ， 体 现 了 明显 的 SIMD 加 速效 末 。 


12 是 在 HW2 平台 下 用 OP 对 单线 程 无 SIMD 加 速 的 程序 分 析 所 生成 的 调用 图 。 每 个 
圆圈 代表 一 个 函数 ， 加 黑 字 体 为 函数 名 ， 顶 端 为 该 函数 运行 占用 总 时 间 的 百分比 ， 函数 名 上 
方 为 调用 该 函数 的 函数 所 占 百分比 (总 和 为 100%)， 函 数 名 下 方 为 该 函数 调用 的 函数 所 占 


百分比 (省 略 部 分 被 调用 函数 ， 总 和 为 100%)。 
从 调用 图 可 以 看 到 ， 


占用 系统 最 多 时 间 的 函数 有 SAD 和 SATD 运算 等 。 


x264 me search ref 是 完成 帧 间 编 码 的 宏 块 运动 估计 的 主要 函数 ， 占 用 总 运行 时 间 比 例 高 达 


69%. 


x264 me search ref 以 及 其 子 函 数 调 用 占用 总 时 间 百 分 比 由 如 下 计算 得 到 : 


x264 me search ref 


refine subpel 


1.8% 
+0.35% X 100% 


x264 pixel sad x3 16x16 +2.1% X 100% 


x264 pixel sad 16x16 


get_ref 


+6.5% X 100% 
+4.5% X 100% 
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x264 pixel sad x4 16x16 +44.9% X 10096 

mc chroma +1.8% X 80.696 

x264 pixel satd 8x8 +1.9% X (72%+1.2%) 

x264 pixel satd 16x16 +6.9% X 87% 
=68.99% 


0.12% 
100% x264_slice_write 


x264_macroblock_analyse 


84.1% 
x264 mb analyse inter p16x16 
6.896 
x264 mb analyse intra 
4.296 
1.996 X264 mb analyse p rd 


72.096 refine subpel 3.200 
25.5% x264 mb analyse intra chroma X264 intra rd 
1.296 x264 me search ref 0.8% 


x264_pixel_satd_8x8 X264 mb analyse intra chroma 


6.996 
87.096 refine subpel 
1396 x264 mb analyse intra 
X264 pixel satd 16x16 


1.896 
80.696 refine subpel 
1696 x264 mb mc Oxywh 


mc chroma 


0.3596 
10096 x264 me search ref 
refine subpel 
38.2% x264 pixel satd 16x16 
22.3% x264 pixel satd x4 16x16 
1596 get ref 
9.296 mc chroma 


8.896 X264 pixel satd 8x8 


0.5496 
10096 x264 macroblock analyse 
x264 mb analyse intra 
4.7% X264 pixel satd 16x16 


.0696 
95.296 x264 macroblock analyse 
x264 mb analyse intra chroma 


62.2% x264 pixel satd 8x8 


44.996 
896 refine subpel 
9296 x264 me search ref 
264 pixel sad x4 16x16 


1.896 
10096 x264 mb analyse inter p16x16 
x264 me search ref 
58.296 x264 pixel sad x4 16x16 
22.396 refine subpel 
9.196 x264 pixel sad x3 16x16 
396 get ref 
2.596 X264 me search ref[self] 


4.506 
5396 refine subpel 
4796 X264 me search ref 
get ref 


0.1696 
0096 x264 macroblock analyse 
X264 mb analyse inter p16x16 
94.996 x264 me search ref 


6.596 
10096 x264 me search ref 
X264 pixel sad 16x16 


2.196 
10096 x264 me search ref 
264 pixel sad x3 16x16 


图 12. x264 热点 函数 调用 图 
3.5 实验 四 : 热点 函数 分 析 


Agner Fog 的 testp 工具 可 通过 执行 系统 特权 指令 rdtsc. rdpmc 等 来 读 取 人 硬件 计时 器 
和 性 能 计数 器 ， 从 而 获得 代码 片段 执行 的 统计 信息 ， 适 合 做 详细 的 代码 片段 分 析 。 本 实验 基 
于 硬件 平台 HW1 和 TP 工具 ， 分 别针 对 经 过 SIMD 汇编 指令 优化 和 不 经 过 优化 的 热点 函数 
的 代码 片段 ， 测 量 详细 的 执行 周期 数 和 微 操 作 数 等 信息 。 


用 于 测试 的 函数 代码 片段 主要 实现 SAD 与 SATD 计算 ,根据 其 处 理 宏 块 的 大 小 (4X4、 
8X8、16X16) 以 及 同时 并 行 处 理 的 宏 块 数 (X1、X3、X4 区 分 为 不 同 的 函数 。 


试验 结果 如 表 7 所 示 , 左 半 部 是 没有 进行 汇编 优化 的 代码 的 执行 周期 , 右 半 部 是 进行 汇 
编 优 化 的 同样 功能 的 代码 的 执行 周期 。 从 中 可 以 看 出 : 


一 ”汇编 优化 后 指令 数 减 少 。 
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- 数据 越 多 ，SIMD 的 执行 效率 越 高 。 表 中 显示 : 就 执行 效率 而 言 ，16X16X4 高 于 
16X16 高 于 8X8。 而 没有 汇编 优化 的 代码 ， 其 执行 时 间 与 数据 量 呈 基本 固定 的 比 
例 。 

— sad x4 16x16 的 加 速 比 达到 35 倍 , 最 差 的 加 速 比 达到 2.3 fii, 考虑 到 各 种 核 函 数 在 
运算 中 所 占 比 重 , 这 一 结果 与 实验 三 热点 函数 的 分 析 中 加 速 一 个 量 级 的 结果 大 体 相 
符 。 

一 ”对 于 SATD 中 的 阿达 玛 变换 ， 没 有 专门 硬件 对 该 矩阵 乘 进行 加 速 ， 所 以 加 速 比 低 于 
只 需要 加 法 操作 的 SAD。 说 明 适 合 人 硬件 结构 的 运算 能 获得 更 好 的 加 速效 果 。 


通过 分 析 热 点 函数 的 c 语言 实现 ， 可 以 看 到 SAD 与 SATD 都 是 非常 简单 的 操作 ， 仅 涉 
及 加 减法 、 求 绝对 值 、 窍 阵 乘 法 等 ， 其 中 应 该 还 有 进一步 优化 的 空间 。 


表 7， 热 点 函数 代码 片段 分 析 
时 钟 A 指令 数 微 操 数据 L1 时 钟 A 指令 数 微 操 ”数据 Ll 


周期 AW 作 数 ”miss 。 周期 ”周期 70 777^ 作 数 miss 
sad 16X16 sad 16X 16 sse2 
1057 1098 3221 3203 0 51 48 74 100 0 
sad 8x8 sad 8x8 mmxext 
281 289 843 781 0 28 26 44 62 0 
sad 4X4 sad 4X 4 mmxext 
80 71 226 208 0 14 14 28 42 0 
satd 16X 16 satd 8 X 8 ssse3 phadd 
1762 1835 4262 4571 0 24] 249 460 611 0 
satd 8 X 8 satd 8 X 8 ssse3 phadd 
451 464 1078 1162 0 77 79 128 174 0 
satd 4X4 satd 4X 4 ssse3 
103 110 262 283 0 45 42 81 9] 0 
sad 16X 16X3 sad 16X 16 X3 sse2 
3145 3286 9657 9348 0 88 90 209 220 0 
sad 16X 16X4 sad 16X 16 X4 sse2 


4200 4376 12875 12540 0 120 122 266 279 0 


4 面向 众 核 处 理 器 的 HEVC 并 行 编码 


为 了 满足 视频 编码 技术 的 发 展 对 计算 能 力 提出 越 来 越 高 的 要 求 , 我 们 开展 了 面向 众 核 处 
理 费 的 高 并 行 度 视频 编码 关键 拉 术 的 研究 , 重点 研究 适用 于 众 核 处 理 器 的 并 行 环 路 滤波 、 烂 
编码 和 运动 估计 方法 ,以 有 效 解 决 现 有 方法 并 行 度 不 足 等 问题 ,充分 挖 气 众 核 处 理 右 的 并 行 
计算 能 力 ,为 视频 编码 发 展 提供 持续 的 计算 能 力 保 证 。 目 前 我 们 主要 完成 了 面 问 众 核 处 理 器 
的 并 行 环 路 滤波 方法 的 研究 ， 其 他 两 部 分 简单 介绍 一 下 将 来 拟 采 用 的 方法 。 
4.1 面 问 众 核 处 理 器 的 并 行 环 路 滤波 方法 

目前 的 并 行 环 路 滤波 方法 都 集中 于 数据 级 的 并 行 , 由 于 环 路 滤波 控制 指令 非常 密集 , 所 
以 目前 的 方法 存在 并 行 度 小 、 同 步 负 和 载 大 、 负 载 不 均衡 、 影 响 编码 效率 的 问题 。 我 们 引入 任 
务 级 的 并 行 方 法 ， 先 将 整个 环 路 滤波 过 程 分 成 两 个 任务 , 深入 分 析 各 个 任务 存在 的 问题 ,并 
提出 了 有 针对 性 的 解决 方案 。 
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4.1.1 分 割 成 两 个 子 任务 ----“ 边 界 强度 计算 ”>,，“ 真 假 边 界 区 分 和 滤波 ” 

如 图 13 所 示 ， 根 据 视 频 编码 标准 ， 环 路 滤波 过 程 可 以 分 成 三 个 任务 : 滤波 强度 计算 、 
真 假 边 界 区 分 、 滤 波 。 由 它们 的 相关 性 可 知 , 滤波 强度 计算 与 其 他 两 个 任务 之 间 没 有 相关 性 ， 
可 以 在 进行 真 假 边 界 区 分 和 滤波 之 前 , 对 所 有 的 滤波 强度 先进 行 并 行 计算 ,这样 就 增加 了 并 
行 度 ， 提 高 了 性 能 。 

但 是 这 也 存在 一 定 的 问题 : 一 一 一 一 
如 图 14 所 示 ， 如 果 将 滤波 划分 成 ERE 
两 个 任务 ， 先 并 行 执行 任务 “边界 
强度 计算 ”再 对 子 任务 “ 真 假 边 
界 区 分 和 滤波 "采用 常用 的 
2D-wavefront 方案 ， 其 中 “BSC” 
代表 子 任务 “边界 强度 计算 ”， 
“EDF” 代 表 子 任务 “ 真 假 边 界 区 分 
和 滤波 ”。 分 割 之 后 存在 以 下 问 


LUE 


一 ”任务 “边界 强度 计算 ” 存 
在 负载 不 均衡 问题 : 如 果 强 滤波 
我 们 将 边界 强度 计算 按 
照 边界 数量 平均 分 给 处 图 13. 环 路 滤波 三 个 任务 之 间 的 相关 性 
理 单元 , 每 个 处 理 单 元 分 到 的 边界 数量 相同 , 但 是 每 个 边界 强度 计算 的 复杂 度 不 同 ， 
各 个 处 理 单元 负载 之 间 会 出 现 不 均衡 。 

一 ”任务 “ 真 假 边 界 区 分 和 滤波 ”因为 采用 了 2D-wavefront 方法 ， 并 行 度 不 够 ， 同 步 负 载 
开销 很 大 。 


子 任务 “边界 强度 计算 ”一 wj<- 子 任务 “ 真 假 边 界 区 分 和 滤波 ” 


LBSC | | LBSC | [EDF]I---EDFT---] 
边界 1 边界 2 边界 1 边界 1 
边界 1| 边 界 1 


界 1 
平均 边界 数目 宏 块 1 


边界 1 | 边界 1 


平均 边界 数目 


时 间 
图 14. 先 对 子 任务 “边界 强度 计算 ”并 行 执行 ， 
再 对 子 任务 “ 真 假 边界 区 分 和 滤波 ”采用 2D-wavefront 方案 
4.1.2 任务 “边界 强度 计算 ”的 并 行 加 速 方法 ----- 马 尔 科 夫 转移 概率 加 速 方法 
边界 强度 计算 可 以 由 公式 (1) 表示 ， 其 中 : 了 是 边界 强度 计算 决策 树 的 各 个 分 文 运 算 ， 
pi 是 选择 第 i 个 分 支 的 概率 ，c; 是 第 i 个 分 支 计 算 的 复杂 度 。 如 果 根 据 分 支 运算 的 概率 分 布 ， 
优先 选择 概率 高 的 分 文 ， 边 界 强度 计算 的 复杂 度 将 会 下 降 。 
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C(T)- » P; X Ci (1) 


icf{0 


通过 仔细 分 析 我 们 发 现 , 对 相同 类 型 帧 图 像 ， 当 前 边界 强度 与 前 一 帧 图 像 对 应 边界 强度 
是 相关 的 。 视 频 编码 标准 中 有 三 种 帧 类 型 ，I、B 和 了 帧 。 我 们 以 P 帧 为 例 ， 根 据 随 机 过 程 
理论 , P 帧 的 马尔 科 夫 特性 可 以 被 描述 为 经 验 转 移 概 率 矩 孟 ， 我 们 描述 经 验 转 移 概 率 和 矩阵 如 
B 


滤波 强度 一 共有 五 种 状态 ，S = {suss，5j,s4 | So» Si^ S2. Si. S4 分 别 代表 : 边界 强 
度 =0、 边 界 强度 =1、 边 界 强度 =2、 边 界 强 度 =3、 边 界 强度 =4。 假 设 当前 滤波 强度 状态 为 si， 
其 下 一 帧 滤波 强度 状态 为 sj 的 概率 为 pyp，pi 束 是 转移 概率 ， 可 以 通过 公式 (2) 获得 。 其 中 
ny 代表 从 状态 s; 转 移 到 状态 s; 的 个 数 ，n 是 所 有 转移 的 个 数 。 公 式 (3) 是 转移 概率 矩阵 ， 
AUN (OD 和 5) 是 该 转移 概率 矩阵 的 性 质 。 


P; =— 2) 
n 

T 
> M -[ p, 3) 
2 Ia 
oo p; 20forlzi, j<5 (4) 
c $ p;=lforl<i, j<5 (5) 
e 我 们 从 公共 测试 数据 集 Xiph.org 中 选取 了 几 组 训练 数据 ， 得 到 P bile feet 
s RABE. RUF Ee e PEE BRA D RTT AE RERNE, 如 公式 (6)， 
S HT 是 滤波 强度 分 支 计 算 的 霍 夫 曼 决 策 树 。 
2 nnd " "» i i i (6) 
e 4.1.3 任务 “ 真 假 边界 区 分 以 及 滤波 ”的 并 行 加 速 方法 ----- 独 立 像素 连通 区 域 并 行 方法 
— 任务 “ 真 假 边界 区 分 以 及 滤波 "的 数据 相关 性 和 整个 环 路 滤波 是 一 样 的 , 以 前 的 像素 级 并 
PT 行 方案 忽略 了 编码 标准 的 一 些 限制 因素 , 在 此 我 们 对 该 任务 进行 像素 级 深入 分 析 后 ,提出 独 


芯 像素 连通 区 域 并 行 算法 。 


b | FH 
素 HH 


V1 V2 V3 V4 V1 V2 V3 V4 V1 V2 V3 V4 E 
图 15. 将 每 个 宏 块 滤波 边界 影响 的 像素 分 成 三 个 区 域 

首先 分 析 滤 波 像素 的 相关 像素 和 滤波 边界 的 滤波 长 度 之 间 的 关系 , 这 里 我 们 讨论 的 是 垂 

直 滤 波 。 如 图 4( 见 $2:1:1) 所 示 ， 滤 波 边 界 X 的 滤波 长 度 为 像素 g、h、i 和 j， 而 像素 1 在 Y 

滤波 中 的 相关 像素 为 k、1、m、n 和 o, 所 以 和 滤波 边界 X 的 滤波 长 度 没 有 重合 。 因 此 进行 X 
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滤波 之 前 ， 可 以 先 对 像素 1 进行 Y 滤波 。 像 素 m、n、o 和 jp 也 可 以 在 滤波 之 前 ， 进 行 了 
滤波 。 我 们 将 像素 k 和 1 的 边界 定义 为 独立 垂直 边界 (TVB)。 对 水 平 滤波 也 会 有 类 似 的 结 
我 们 也 能 找到 独立 水 平 边界 (IHB)。 


A JB JE IER 
fy 7 Dc 区 域 pus ; 区 x xi 
9 连通 区 域 e ? 

1 i 10 
7) bcp uet E a a ss p 

| J E 
9|E 连通 区 域 i EE H y 

y 
7* 10 YEN 连通 连通 10 8 ES] TEN 

! 区 域 区 域 区 域 x ps 

li | ; ] 

9 | HR 连通 区 域 9E 9 | ER 
Y I I Y Y 
第 一 阶段 第 二 阶段 第 三 阶段 


图 16. 分 成 三 个 阶段 对 图 像 进行 滤波 


如 图 15 所 示 ， 根 据 独 立 垂直 边界 IVB 和 独立 水 平 边界 IHB， 将 受到 每 个 宏 块 滤波 边界 
影响 的 像素 分 成 三 个 独立 像素 连通 区 域 。 每 个 连通 区 域 的 边界 滤波 是 特定 和 有 顺序 的 , 这 些 
顺序 符合 编码 标准 。 如 图 16 所 示 , 我 们 将 每 帧 图 像 的 滤波 过 程 分 成 三 个 阶段 ， 图 像 大 小 为 
48x48， 每 个 宏 块 大 小 为 16x16， 每 个 宏 块 有 一 个 A、B 和 C， 所 以 图 像 中 一 共有 9 个 A, B 
和 C。 在 第 一 阶段 中 ， 每 三 个 区 域 A 形成 一 个 连通 区 域 ， 一 共有 三 个 连通 区 域 。 各 连通 区 
AOFI AREL b ERM a RRRA EN 
B 或 者 区 域 C， 一 共有 九 个 连同 区 域 ， 也 宏 块 数目 2D-wavefront ”我 们 的 方案 


是 平均 分 给 处 理 单元 进行 处 理 。 这 三 个 阶 — 159 “QCIF) 6 115 
段 需要 按 次 序 进行 ， 因 为 相互 之 间 有 相关 7718 CCIF) 11 430 
性 。 我 们 发 现 ， 如 果 处 理 单元 足够 多 , 设 105736 CSD) 23 1690 
帧 图 像 水 平方 向 和 垂直 方向 的 宏 块 数目 分 。 “0*45 HD) 40 3688 
别 为 Ws 和 Hs， 则 刚 开始 滤波 的 时 候 , jp. 120x608 EHD)  — 60 So24 


行 度 就 已 经 达到 Hm， 最 大 并 行 度 可 达 Wm XHm， 并 行 度 得 到 了 很 大 地 提高 (如 表 8)。 同 步 
通信 只 发 生 在 相 邻 阶段 之 间 ， 一 共 只 有 两 次 同步 操作 ， 同 步 负 载 比 以 前 的 方法 明显 减少 。 


据 我 们 实验 估算 ， 与 流行 的 2D-wavefront 方法 对 比 ， 在 保持 编码 效率 不 变 的 前 提 下 ， 
我 们 方法 的 加 速 比 将 达到 10 倍 以 上 。 


4.2 拟 采 用 的 并 行业 编 码 方 法 


目前 的 并 行 烂 编码 方法 主要 有 语法 元 素 分 割 和 燃 编 码 片 分 割 两 种 。 语 法 元 素 分 割 方法 影 
啊 编 码 效 率 ， 而 且 并 行 度 太 小 。 燃 编码 片 分 割 方法 会 一 定 程 度 地 提 口 并行 度 , 但 是 会 严 午 影 
啊 编 码 效 率 。 我 们 将 分 别 解决 这 两 种 方法 存在 的 问题 ,并 对 解决 方法 进行 融合 ,在 保证 编码 
效率 的 前 提 下 提高 并 行 度 。 

-语法 元 素 分 割 方法 语法 元 素 集合 之 间 存 在 一 定 的 相关 性 ， 如 果 直 接 对 分 割 的 语法 

元 素 集合 并 行 处 理 , 会 影响 编码 效率 。 我 们 将 深入 分 析 语 法 元 素 集合 之 间 的 相关 性 ， 
对 分 割 的 语法 元 素 集合 进行 流水 线 处 理 ， 在 保证 编码 效率 的 前 提 下 ， 提 高 并 行 度 。 
- HRBATA 烂 编 码 片 之 间 不 能 相互 参考 ， 会 影响 编码 效率 。 我 们 拟 提出 有 
限 大 小 的 精 编 码 片 分 割 方法 ， 并 且 选 择 最 常用 的 上 下 文 模型 作为 初始 上 下 文 模型 ， 
从 而 保证 编码 效率 ;和 炉 码 片 在 除了 粒 编 码 以 外 的 编码 阶段 ， 相 互 乙 间 有 相关 性 ， 
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XE WJEAT BE. 34 HUCKHIHB Bg 3 Fr HRT, me d 3 Fr EAS a 3 LAARS 
阶段 也 可 以 并 行 处 理 ， 以 在 保证 编码 效率 的 同时 ， 提 升 并 行 度 。 
一 ”由 于 语法 元 素 分 割 方法 和 烂 编码 片 分 割 方法 可 以 同时 存在 , 我们 可 以 将 它们 进行 结 
合 ， 在 保证 编码 效率 的 前 提 下 提高 烂 编 码 的 并 行 度 。 
4.3 拟 采 用 的 并 行 运 动 估 计 方 法 
在 HEVC 视频 编码 标准 中 ， 预 测 单元 之 问 编码 相关 性 很 强 ， 传 统 的 并 行 运动 估计 方法 
不 再 适用 。[24] 提 出 的 并 行 策略 又 有 并 行 度 不 高 的 缺点 。 鉴 于 此 情况 ,我 们 针对 HEVC 标准 
中 的 运动 估计 , 人 研究 适用 于 众 核 体系 结构 的 高 并 行 度 运 动 估计 算法 , 拟 提 出 一 种 编码 效率 和 
并 行 度 兼 顾 的 预测 单元 级 全 局 并 行 方法 : 
一 ”HEVC 中 merge/skip 模式 的 候选 列表 构造 对 周围 的 预测 单元 有 很 强 的 依赖 性 。 为 了 
解除 这 种 依赖 性 ， 我 们 使 用 HEVC 提案 JCTVC-H00825 中 提出 的 运动 估计 区 域 的 
概念 ， 在 一 个 运动 估计 区 域 范围 内 进行 预测 单元 的 并 行 运 动 估 计 。 同 时 为 了 提高 全 
局 并 行 度 ， 我 们 在 此 基础 上 设计 了 一 种 运动 估计 区 域 之 间 并 行 处 理 的 方法 ， 较 提 
案 [24] 大 大 提高 了 并 行 度 且 保证 了 编码 效率 。 
- 同样，HEVC 中 运动 矢量 估计 的 计算 对 相 邻 预测 单元 的 依赖 性 也 很 强 ， 会 阻 但 并 行 
化 。 但 是 不 能 忽略 预测 单元 之 间 的 依赖 性 ， 因 为 运动 矢量 估计 对 运动 估计 精确 度 有 
很 大 影响 。 因 此 为 了 保证 编码 效率 ， 我 们 拟 利用 其 他 已 编码 帧 中 的 运动 矢量 对 内 部 
预测 单元 的 运动 矢量 估计 进行 预测 ， 以 避免 运动 矢量 估计 计算 对 并 行 度 的 影响 。 而 
边界 预测 单元 的 运动 矢量 估计 可 以 精确 得 到 ,用 得 到 的 运动 矢量 估计 进行 搜索 区 域 
的 初始 化 和 匹配 代价 的 计算 ， 可 以 保证 编码 效率 。 


5 ”结束语 


目前 ， 我 们 提出 的 面向 众 核 处 理 器 的 并 行 环 路 滤波 方法 已 经 在 2011 年 度 多 媒体 领域 旗 
MAN ICME 〈 国 际 多 媒体 会 议 及 博览 会 ，International Conference on Multimedia and Expo; 
2011) EA. ZEHN FRE. M 744 篇 会 议论 文中 脱颖而出 ， 成 为 最 佳 论文 候选 。 经 过 进 
一 步 完 善 ， 该 项 成 果 被 推荐 到 多 媒体 领域 项 级 期 刊 IEEE Trans. on Multimedia 上 ， 已 于 该 期 
刊 的 2012 年 6 月 期 上 发 表 。 我 们 将 对 拟 采 用 的 并 行 烂 编码 方 法 和 并 行 运 动 估 计 方 法 进一步 
开展 研究 ， 验 证 其 有 效 性 。 最 后 构建 一 个 面向 众 核 处 理 器 的 并 行 视频 编码 原型 系统 ， 以 有 
效 解 决 现 有 方法 并 行 度 不 足 等 问题 ， 充 分 挖掘 众 核 处 理 器 的 并 行 计算 能 力 ， 为 视频 编码 发 展 
提供 持续 的 计算 能 力 保 证 。 
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